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摘 E: 针对 现 有 的 动态 手势 识别 方法 对 长 时 间 序 列 的 时 空 特征 难以 精确 匹配 的 问题 ， 提 出 了 一 种 基于 宽 残 差 和 双向 
长 短 时 记忆 网 络 的 时 空 特征 一 致 手势 识别 方法 。 首 先 使 用 已 经 训练 好 的 3D 卷 积 神 经 网 络 从 视频 的 空间 和 时 间 维 度 同 
步 提 取出 短 时 特征 ， 再 经 双向 空间 长 短 时 记忆 网 络 同步 解析 后 形成 长 时 空 特 征 连接 单元 ， 并 作为 残 差 网 络 的 输入 。 为 
了 验证 算法 的 有 效 性 ， 使 用 Kinect 传感器 构建 了 一 个 全 新 的 多 模式 手势 数据 集 ， 在 3 个 手势 识别 公开 数据 集 SLVM、 
Montalbano 和 SKIG 上 的 实验 表明 ， 提 出 的 方法 有 很 好 的 性 能 表现 ， 识 别 精度 超越 了 目前 已 公开 的 最 佳 识 别 率 。 
关键 词 : 手势 识别 ; 3D 卷 积 神 经 网 络 ; 长 段 时 记忆 网 络 ; 宽 残 差 网 络 
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Abstract: The current dynamic hand gesture recognition method is not able to capture long-term spatiotemporal features from 
© image sequences accurately. In order to solve this problem, this paper proposed a new dynamic gesture recognition algorithm 
based on wide residual networks and long short-term memory networks that perform simultaneous detection and classification. 
Firstly, spatial and temporal features are extracted from the fine-tuned 3D convolutional neural networks. Next, a bidirectional 
convolutional long short term memory networks is utilized to further take into account the temporal aspect of image sequences. 
Lastly, these higher level features are sent to the wide residual networks for final gesture recognition. In order to validate this 
method, a new challenging multimodal dynamic hand gesture dataset was introduced, which was captured with Kinect sensors. 
Experimental results show that proposed method achieves state-of -the-art performance on SLVM, Montalbano and SKIG. 
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利用 人 工 神经 网 络 以 静止 的 手 部 形状 为 识别 目标 开展 的 研究 。 
随 着 硬件 系统 的 发 展 ， 静 态 手势 识别 中 使 用 的 算法 复杂 度 也 不 
PALA MARZ ima, BERMA  ” 断 提 高 ，Dardas 等 人 中 采用 支持 向 量 机 (support vector machine, 
与 正常 人 交流 从 而 获取 信息 服务 、 共 享 社会 物质 文化 成 果 最 重 SVM) 算 法 研究 了 表示 数字 0、1、...、9 的 静态 手势 识别 技术 ， 
要 的 途径 。 同 时 ， 手 势 具 有 自然 、 直 观 的 视觉 效果 ， 因 此 在 人  ” 并 在 实时 环境 中 对 识别 方法 进行 了 测试 ,取得 了 较 高 的 识别 率 。 
机 交互 领域 具有 巨大 的 应 用 前 景 ， 越 来 越 多 的 国内 外 相关 研究 。 通常 来 讲 ， 静 态 手势 识别 只 需要 识别 一 张 图 片 即 可 满足 要 求 ， 
机 构 和 学 者 开始 研究 手势 识别 算法 ， 以 达到 让 机 器 自动 理解 人  ” 而 动态 手势 识别 因 其 具有 灵活 多 变 、 表 意 词汇 丰富 的 特点 ， 因 
类 手势 的 目标 。 然 而 ， 由 于 人 手 是 复杂 变形 体 ， 同 时 手势 具有 此 存在 更 多 关于 精度 和 可 用 性 的 困难 。 
多 样 性 、 多 义 性 ， 特 别 是 动态 手势 还 存在 时 间 维 度 上 的 分 布 差 当前 大 部 分 动态 手势 识别 研究 方法 多 是 依靠 人 工 经 验 进 行 
异性 ， 因 此 ， 当 前 手势 识别 仍然 是 存在 诸多 挑战 的 一 项 研究 。 特征 提取 : Parcheta 等 人 外 基于 隐 马 尔 可 夫 模 型 (hidden Markov 
在 人 机 交互 领域 最 早 的 手势 识别 探索 当 属 Pavlovic 等 人 model, HMM) 对 动态 手势 的 识别 进行 了 研究 ; 在 其 自主 创建 的 
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包含 91 


数据 集 


个 手语 词汇 的 公开 数 ] 
Daniel 等 人 外 提出 了 另外 一 种 
(dynamic time warping，DTVW) 的 手语 识别 系统 ， 
HMM 进行 人 体 上 肢 运 动 轨迹 的 准确 跟踪 ， 并 在 剑桥 手势 公开 
Cambridge Gestural 


BE LEAT 84.6% 的 识别 率 。 
融合 HMM 和 动态 时 间 归 整 
该 方法 利用 


Performance Database 2012 


(CGPD12)5I 上 取得 了 95.1% 的 识别 正确 率 。 


像 完 成 动态 手势 


完成 动态 手势 识别 ， 正 确 率 达到 了 96.8% 。 


在 国内 ， 曹 洁 等 i 首先 利用 K- 


匀 值 聚 类 算法 对 RGB-D 图 
|; 然后 结合 快速 动态 时 间 规整 算法 
张 备 伟 等 中 使 用 


NCE 


Kinect 传感器 获取 人 体 关 节点 数据 从 而 建立 训练 模板 库 ， 接 着 


利用 


必须 要 有 非常 深 
性 。 


DTW 算法 完成 了 交警 常 | 
然而 , 人 工 的 特 


同时 ， 人 工 选取 的 特 


指挥 手势 的 高 精度 识别 。 

征 提取 和 选择 是 一 件 非常 耗 时 耗 力 的 工作 ， 
厚 的 专业 知识 和 经 验 才能 确保 分 类 特征 的 正确 
征 也 很 难 适应 动态 手势 的 多 变性 。 近 


H 


F 来 ， 随 着 计算 机 硬件 性 能 的 进一步 提升 ， 信 


l 


息 技 术 界 迎 来 了 


又 一 轮 人 工 智能 变革 的 高 潮 ， 特 别 是 基于 神经 网 络 的 深度 学 习 


加 受到 了 前 所 未 有 的 关注 。 


与 传统 人 工 特征 提取 加 分 类 器 的 方 


式 相 比 ， 深 度 学 


了 “ 端 到 端 ? 学 习 架 构 ，; 
此 在 识别 率 上 也 取得 质 的 提升 .Moon 等 人 外 研究 了 使 用 普通 单 
目 摄 像 头 作为 数据 传感器 的 动态 手势 识别 ， 
经 网 络 (convolutional neural network，CNN) 的 大 规模 数据 
集 手 势 识别 方法 。 


RAR 


习 方式 将 自动 特征 提取 和 分 类 联合 为 一 体形 成 
避免 了 人 工 经 验 特征 提取 的 主观 性 ， 因 


提出 了 一 种 基于 卷 


为 了 解决 基于 视频 的 动态 手势 识别 需要 对 空 
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得 视频 中 手势 的 类 别 。 


概括 来 说 ， 本 文 的 创新 点 有 : 


的 3D 卷 积 层 和 适合 长 时 信 


息 编码 的 双向 空间 


型 的 两 种 独立 特征 分 类 结果 进行 有 效 的 融合 ， 以 投票 的 方式 获 


a) 设 计 了 适合 短 时 特征 提取 


使 模型 能 够 最 大 程度 上 利用 视频 的 时 空 特 


残 差 网 络 思想 设计 了 ) 
块 的 卷 积 核 宽度 


出 了 针对 同 源 数据 的 有 效 融 
个 分 类 器 分 类 错误 的 补偿 ， 


1 深度 网 络 架 构 


长 短 时 记忆 层 ， 


征 进行 分 类 。b) 基 于 


j 于 特征 选择 的 残 差 模块 ， 拓 宽 了 残 差 模 
减少 了 相应 层 数 ， 从 而 增加 
择 范围 ， 有 效 解决 了 深层 网 络 的 梯度 衰减 和 梯度 不 均 问 题 
合 策略 ， 实 现 了 在 
使 模型 的 分 类 准确 率 更 高 。 


了 空间 特征 的 选 
sc) fat 
数据 丢失 时 对 单 


针对 动态 手势 识别 的 问题 ， 提 出 了 一 种 融合 3D 卷 积 神经 


网 络 、 双 向 空间 长 短 时 记忆 网 络 和 宽 残 差 模块 的 深度 架构 ， 如 


图 1 所 示 。 


图 1 WRN-BCLSTM 模型 结构 图 


间 域 和 时 间 域 进行 同步 特征 提取 这 一 问题 ，Molchanov $ ATO 首先 ， 将 包含 手势 样本 的 视频 处 理 为 具有 统一 长 度 的 连续 
首次 提出 了 将 仅 能 对 图 像 进行 特征 提取 的 传统 二 维 CNN 模型 图 像 序列 作为 模型 的 输入 。 随 后 ， 利 用 3D 卷 积 神经 网 络 从 图 
扩展 到 可 对 空间 和 时 间 特 征 进行 同步 提取 的 三 维 模 型 ， 从 而 有 像 序列 中 提取 特征 ， 空 间 维度 和 时 间 维 度 的 特征 数据 经 过 双向 
效 获取 视频 中 的 运动 信息 。 空间 LSTM 解析 后 形成 长 时 间 动 态 特征 数据 连接 单元 ， 并 以 二 
Wudi 等 人 0 提出 了 一 种 双 列 深度 网 络 的 多 模 态 手语 识别 维 张 量 的 形式 作为 残 差 网 络 的 输入 。 经 过 残 差 层 处 理 后 最 终 被 
方法 : 第 一 列 3D 卷 积 网 络 对 视频 数据 进行 运动 特征 的 提取 ; 输入 到 一 个 softmax 分 类 器 ， 以 向 量 的 形式 输出 手势 样本 的 预 
第 二 列 深度 信念 网 络 (Deep Belief Network, DBN) 则 利用 骨骼 数 定义 类 别 ， 而 向 量 中 每 一 个 维度 的 值 表示 当前 手势 被 分 割 到 某 
据 进 行 识 别 。 最 后 对 两 个 子 网 络 的 分 类 结果 进行 有 效 的 融合 ， 个 类 别 的 置信 度 ， 即 ?CClx0) 。 
从 而 在 Montalbano 手势 识别 大 赛 数据 集 上 取得 了 0.88 的 1.1 数据 预 处 理 
Jaccard Index 交 并 比 得 分 (1,。 Pigou 等 人 听 则 将 3D 卷 积 神经 网 深度 网 络 架构 由 于 其 中 全 连接 层 的 限制 ， 一 般 都 要 求 输入 
络 和 循环 神经 网 络 (recursive neural network,，RNN) 两 种 模型 进 数据 具有 相同 的 维度 。 因 此 ， 首 先 需要 对 数据 进行 时 间 维 度 上 
行 合 加 , 在 Montalbano 数据 集 上 将 Jaccard Index 交 并 比 得 分 提 ” ”的 统一 。 为 了 尽 可 能 精确 地 获取 代表 手势 含义 的 特征 ， 本 文采 
升 到 了 0.916。 用 了 窗口 滑动 法 "4 ， 选 择 了 32 作为 每 一 个 手势 视频 的 基准 帧 
虽然 当前 基于 深度 网 络 架构 的 模型 在 手势 的 运动 特征 提取 数 。 帧 数 大 于 32 的 视频 , 对 两 端 无 关 图 像 序列 进行 删除 ,保留 


和 分 类 上 取得 了 较 好 的 效果 ， 但 


目前 对 视频 中 动态 手语 的 识别 


中 间 的 关键 帧 , 而 对 于 帧 数 小 于 32 


的 视频 则 是 


按照 一 定 比例 选 


仍然 受 限 于 长 序列 图 像 的 处 理 。 鉴 于 双向 长 短 时 记忆 网 络 出 中 间 的 若干 帧 进行 插值 。 通 过 窗口 滑动 法 的 预 处 理 ， 视 频 的 
(bidirectional long short term memory,，Bi-LSTM) 在 自然 语言 处 运动 路 径 信 息 得 以 保留 。 具 体 的 预 处 理 过 程 如 下 : 

里 任务 中 表现 出 的 优异 性 能 ， 本 文 提 出 了 一 种 全 新 的 长 序列 手 a) 手 势 时 间 维 度 的 分 制 。 参 照 附 图 2， 使 用 窗口 滑动 法 ， 
语 识别 深度 学 习 架 构 WRN-BCLSTM: 首先 以 3D 卷 积 神经 网 将 视频 长 度 标准 化 为 固定 长 度 ( 壁 如 32 帧 ) 。 如 果 采 集 的 视频 
络 作为 视频 的 特征 提取 器 ， 将 其 产生 的 固定 长 度 短 时 空 特征 作 长 度 大 于 32 帧 ， 则 删除 两 端的 多 余 帧 ， 反 之 ， 则 重复 某 些 帧 。 
为 多 层 双向 空间 长 短 时 记忆 网 络 的 输入 ， 并 进一步 编码 形成 长 c 为 原 手语 样 例 视 频 * 的 起 始 帧 ， c: 为 原 手语 样本 视频 * 的 结 
时 关联 信息 。 而 后 通过 宽 残 差 网 络 (wide ResNet, WRN) 对 长 序 RW, L=6-G 为 手语 样 例 视频 * 的 长 度 。 

列 视频 的 时 空 信息 进行 精确 的 表征 。 最 后 通过 融合 策略 ， 对 模 若 上 >32， 则 ce =c+rw-32/2， 这 里 ct 为 分 割 后 的 手语 样 例 
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* 新 的 起 始 帧 。 oc* =c"+32 ， 这 里 cr 为 分 割 后 的 手语 样 例 * 新 的 


结束 帧 。 


Gr =G+32 ， 这 里 cx 为 分 割 后 的 手语 样 例 :* 新 的 结束 帧 。 这 样 ， 
大 部 分 带 运动 路 径 信息 的 关键 帧 得 以 保留 。 


若 上 <s32 ， 则 c 仍 作为 分 割 后 的 手语 样 例 * 的 起 始 帧 。 


b) 手 势 的 空间 维度 分 割 。 按 照 人 体 区 域 范围 将 每 一 帧 图 像 


剪 切 为 112*112 像素 ， 得 到 统一 分 辩 率 的 视频 。 


1 


特点 ， 即 局 部 连接 、 池 化 和 权 值 


手势 主体 
图 2 窗口 滑动 法 
.2 3D 卷 积 神经 网 络 模块 
卷 积 神经 网 络 是 一 种 特殊 的 前 馈 神经 网 络 ， 它 的 三 个 重要 


* 享 使 其 非常 适合 图 像 数 据 的 


处 理 。 局 部 连接 保证 了 层级 之 间 的 稀 玻 性 连接 ， 大 大 降低 了 网 
络 模型 的 参数 规模 。 池 化 在 一 个 小 区 域内 采取 一 个 特定 的 值 作 


为 输出 ， 


此 降低 特征 的 维度 。 权 值 共享 使 同一 感受 视野 内 的 


神经 元 拥有 相同 的 参数 值 ， 从 而 进一步 简化 网 络 结构 ， 避 免 过 
拟 合 现象 的 发 生 。 另 外 ， 由 于 卷 积 和 池 化 的 相互 车 加 决定 了 


CNN 


力 ， 但 是 在 面 对 视频 任务 处 理 时 ， 


有 一 定 程 度 上 的 平移 、 缩 放 和 扭曲 不 变性 5 。 
传统 的 2D CNN 虽然 对 图 像 数据 具有 很 强 的 特征 提取 能 
于 时 间 维 度 被 转换 为 长 序 


列 帧 ， 因 此 容易 丢失 特征 目标 之 间 的 运动 信息 。 为 了 解决 这 一 


问题 ， 本 文采 


图 3 3D 卷 积 模块 


本 文 使 用 的 3D 卷 积 模块 结构 如 图 3 所 示 ， 网 络 的 输入 由 
连续 的 32 帧 图 像 构 成 , 每 一 帧 图 像 的 空间 尺寸 为 112*112。3D 
卷 积 Conv3D-1 的 卷 积 核 尺寸 为 3*3*3， 特 征 个 数 为 64 个， 每 
个 3D 卷 积 核 具 有 相同 的 权重 系数 ， 输 入 数据 经 过 卷 积 后 得 到 
64 幅 大 小 为 112*112*32 的 特征 图 。 同 理 ，3D 卷 积 Conv3D-2、 
Conv3D-3 和 Conv3D-4 层 的 卷 积 核 个 数 分 别 为 128、256 和 256， 
尺寸 统一 保持 为 3*3*3。 池 化 层 Poolingl 只 对 空间 维度 进行 2*2 
的 降 维 采 样 ，Pooling2 则 从 时 间 和 空间 维度 同步 进行 2*2*2 的 
采样 ， 经 过 以 上 三 次 卷 积 和 两 次 池 化 操作 后 得 到 256 幅 大 小 为 
28*28*16 的 特征 图 。 在 每 一 个 卷 积 层 之 后 ， 连 接 的 是 批 规范 化 
(Batch Normalization，BN) 层 ， 在 梯度 计算 过 程 中 对 每 个 
mini-batch 的 数据 分 布 进行 规范 化 , 使 其 满足 均值 为 0, 方差 为 


了 一 种 新 的 3D CNN 结构 对 传统 2D CNN 进行 


改进 。 其 中 3D 卷 积 定义 如 下 : 


其 中 
频数 据 的 三 个 维度 ， 上 标 中 * 和 ， 分 别 代表 输入 样本 的 空间 维 
度 ， 
在 三 个 维度 上 的 值 ， 下 标 中 -Dm 表示 第 /1. 层 中 的 第 "个 特征 


Pit Qa Ria 
ODD 


m p=0 q0 r0 


IERI 3D 卷 积 操作 的 输出 ， 


oo 表示 输入 样本 视 


2 代表 输入 样本 的 时 间 维度 ， m7 分 别 表示 本 次 卷 积 操作 


1， 再 输入 到 下 一 层 计算 。 通 过 使 用 批 规范 化 ， 保 证 初始 学 习 速 
率 可 以 选择 相对 较 大 的 值 ， 以 提高 收敛 速度 。 
1.3 双向 空间 LSTM 网 络 模块 

动态 手势 识别 的 目标 是 从 视频 序列 中 提取 出 手势 的 时 空 视 
觉 信息 ， 但 视频 事件 的 时 序 往往 比较 复杂 ， 这 给 识别 任务 带 了 
挑战 。 鉴 于 LSTM 近年 来 在 自然 语言 处 理 领 域 处 理 复杂 时 序 任 
务 时 取得 了 巨大 成 功 ， 本 文 探 索 使 用 LSTM 从 输入 的 视频 中 递 
学 习 出 图 像 序列 的 长 时 间 动 态 特 征 。 


i 


= 


图 。w 是 卷 积 核 连接 到 前 面 第 "个 特征 图 中 坐标 为 (jm 的 参 


数 ， 也 叫 权 值 ，3,8,8 分 别 代表 卷 积 核 的 尺寸 ，% 表示 1 层 中 的 
第 i 个 特征 图 的 偏 置 参数 ，o(%) 是 为 了 增强 该 结构 的 表达 能 力 而 
引入 连续 的 非 线 性 激活 函数 。 


7] 


AH 


于 传统 的 sigmoid 和 双 正 切 tanh 激活 函数 的 导数 值 域 都 


作为 循环 神经 网 络 的 一 个 变 体 ，LSTM 网 络 依靠 记忆 单元 
“来 记录 序列 到 当前 时 刻 为 止 所 有 的 历史 信息 ， 并 使 用 输入 门 
i ， 遗 忘 门 和 输出 门 。 来 控制 梯度 在 时 间 维 度 上 依次 传播 ， 
进而 能 够 将 输入 的 序列 Ls) 映射 为 隐藏 结 点 序列 0,54) ， 从 
而 可 以 从 输入 序列 的 动态 特征 中 递归 学 习 到 复杂 的 时 间 关 联 


ui} 


\F 1， 梯 度 在 经 过 每 一 层 传递 时 都 会 不 断 衰减 。 因 此 ， 当 网 


络 结构 不 断 加 深 时 会 出 现 梯 度 消 失 的 问题 。 为 了 符合 神经 元 的 


E 物 机 理 ， 本 文 使 用 


了 rectified linear unit (Relu) 作 为 激活 函数 ， 


公式 如 下 : 


rectifier(X ) = max(0, X) 


其 中 , 当 输 入 的 x 值 小 于 等 于 0 时 , 强制 x 等 于 0; 当 输 入 的 x 
值 大 于 0 时 则 不 做 改变 。 这 样 可 以 使 输出 具有 一 定 的 稀 玻 性 从 
而 加 快 网 络 的 收敛 速度 。 


息 。 然 而 ， 传 统 的 自然 语言 处 理 领 域 中 应 用 的 LSTM 是 将 一 维 
的 向 量 作为 处 理 对 象 , 主要 学 习 一 段 文字 向 量化 后 的 时 序 特征 ， 
如 果 将 这 种 结构 直接 应 用 到 视频 分 类 任务 中 ， 不 可 避免 的 存在 
图 像 空间 位 置信 息 的 丢失 。2015 年 NIPS 会 议 ，Shi 等 03 提 出 
T Convolutional LSTM (ConvLSTM)， 该 模型 可 以 直接 对 二 维 
张 量 进行 运算 ， 有 效 克 服 了 时 序 传递 过 程 中 空间 信息 丢失 这 一 
问题 ， 并 在 视频 事件 分 析 领 域 获得 成 功 。 以 此 结构 为 基础 ， 我 
们 设计 了 双向 空间 LSTM， 其 结构 如 图 4 所 示 
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图 4 双向 空间 LSTM 模块 

两 个 单 向 传递 的 ConvLSTM 连接 后 构成 双向 
(Bi-ConvLSTM) 记 忆 单 元 。 其 中 每 一 个 Bi-ConvLSTM 记忆 单元 
包含 了 来 自 3D 卷 积 模块 的 空间 和 时 间 的 输入 ，Bi-ConvLSTM 
单元 的 计算 结构 可 以 描述 为 


i =sU,,*x, +W; *h_ +Wy °c, +8) 


f= 5Uy *x, + Wy *h 4 +Wy ec, +b) 
0, =s(U, *x, +W,,*h,, +W, ec +b,) 
=f ec, the yU, *x +W, *h +b) 
h, =0, è y(c,) 

其 中 : 表示 当前 时 刻 的 输入 ，% 表 示 :-! 时 刻 的 输出 ， 且 都 
是 以 二 维 张 量 的 形式 存储 。* 表 示 为 卷 积 操作 , 。 表 示 为 哈达 玛 
积 (Hadamard product). 4. f Allo 分别 表示 为 输入 门 、 遗 忘 门 
和 输出 门 ，v 、w 和 。， 分 别 表示 上 述 三 种 门 结构 的 输入 权重 、 
递归 权重 和 偏 置 项 ，i 决定 了 一 个 内 存单 元 加 入 多 少 新 的 信息 ， 
/控制 每 一 个 内 存单 元 需要 遗忘 掉 多 少 信息 ，。 控制 每 一 个 内 
存单 元 输出 多 少 信 息 。swW=4+e*" 表 示 sigmoid 非 线 性 函数 , 使 
得 三 个 门 的 元 素 取 值 在 [0,1] 之 间 ，>m=e -ey ie +e) REAR 
正切 非 线性 函数 ， 取 值 范围 是 [-1,H]，“。“ 表示 为 输入 控制 模块 ， 

是 ConvLSTM 的 核心 记忆 单元 ,控制 了 哪些 信息 将 被 保存 ;< 
两 部 分 组 成 , 第 一 部 分 表示 上 一 时 刻 记 忆 单 元 6 经 过 遗 态 门 
/后 留 下 的 信息 ， 第 二 部 分 是 输入 数据 经 过 调制 门 后 留 下 的 信 


自 


ayo 


证 


it 


Ds 


像 序 列 的 时 空 信息 经 过 双向 空间 LSTM 的 传递 后 ,在 全 
局 范围 内 得 到 了 有 效 的 融合 ， 相 比 单 向 的 LSTM， 双 向 LSTM 
网 络 能 够 更 好 地 捕捉 到 视频 的 全 局 信息 ， 因 此 能 够 获得 更 好 的 
预测 结果 。 
1.4 宽 残 差 网 络 结构 设计 

经 过 3DCNN 和 Bi-ConvLSTM 县 加 结构 的 编码 , 手势 视频 
被 转换 成 了 蕴含 大 量 时 空 信息 的 二 维 张 量 特征 。 近 年 来 崛起 的 
深度 卷 积 神经 网 络 在 图 像 分 类 任务 中 表现 出 了 的 优异 的 性 能 。 
特别 是 2015 年 之 后 ，AlexNet，GoogleNet，VGG，ResNet 等 
网 络 模型 的 进展 使 得 深度 学 习 架 构 在 图 像 分 类 任务 中 取得 了 连 


续 性 的 突破 。 基 于 此 ， 本 文 结合 当前 性 能 较为 出 色 的 深度 残 差 
架构 思想 进行 创新 尝试 ， 对 二 维 图 像 特征 进行 高 效 准确 的 自动 
学 习 和 分 类 。 
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手势 识别 研究 


假设 wo 表示 深度 神经 网 络 在 输入 样本 * 后 的 最 优 解 映 
射 ， 传 统 的 卷 积 神经 网 络 是 直接 拟 合 mo=* ， 而 深度 残 差 网 络 
期 望 拟 合 残 差 映 射 ， 即 FOH- 。 由 于 :是 输入 的 源 图 像 ， 
可 以 验证 拟 合 ro SUG wo 的 目标 是 等 价 的 。 在 此 条 件 下 ， 
原来 的 最 优 解 映射 被 表示 为 : AD=rm+x 。 如 图 5(a) 所 示 。 


zd 
xf ee nOOUNES 
人 z 
ORERE (b) 宽 残 差 块 1 (c) 宽 残 差 块 2 
图 5 宽 残 差 模块 示意 图 


此 时 ， 深 度 残 差 网 络 通 过 快捷 连接 结构 ， 跳 过 2 或 3 个 卷 

积 层 ， 自 身 映 射 到 县 加 层 与 卷 积 层 的 输出 进行 相 加 。 显 然 ， 使 
网 络 去 拟 合 确 定 的 函数 ro =o 比 优化 逼近 一 个 最 优 函 数 ao 要 
容易 很 多 。 在 快捷 连接 结 方式 中 ， 模 型 的 参数 量 和 计算 复杂 度 
没有 大 的 增加 。 换 而 言 之 ， 深 度 残 差 结 构 可 以 县 加 到 已 有 剖 
深度 模型 中 去 ， 而 不 改变 原 模型 已 有 的 架构 ， 使 得 训练 出 性 能 
更 好 、 层 数 更 多 的 网 络 模型 成 为 可 能 。 
晶 即 使 如 此 ， 具 有 恒 等 映 射 的 残 差 网 络 随 着 深度 的 不 断 增 
加 也 同样 存在 着 多 层 残 差 模 块 共享 少量 的 梯度 信息 流 这 一 次 
端 。 换 而 言 之 ， 只 有 少 部 分 残 差 模块 的 参数 得 到 了 更 新 。 为 了 
解决 该 问题 ， 本 文 结合 Sergey 等 人 2 提出 的 宽度 残 差 模块 思 
想 ， 使 用 浅 而 宽 的 结构 代替 了 深 而 窗 的 残 差 网 络 模块 。 后 续 实 
验证 明 ， 适 当 增 加 残 差 模块 的 宽度 比 增加 单纯 增加 网 络 的 深度 
更 能 提高 残 差 网 络 的 性 能 ， 因 为 更 宽 的 网 络 增加 了 特征 的 选择 
范围 ， 从 而 增强 了 特征 的 耦合 能 力 。 

如 图 5 所 示 ， 本 文 的 宽 残 差 (Wide Residual Network, WRN) 
模块 从 Bi-ConvLSTM 输出 的 二 维 张 量 中 进一步 提取 数据 的 空 
间 特 征 。 宽 残 差 模块 的 总 层 数 为 16, 一 共 由 4 个 残 差 组 (Conv1、 
Conv2、Conv3 和 Conv4) 构成 ， 残 差 组 的 宽度 由 加 宽 系 数 * 决 
定 ， 本 文中 *=4 。 每 一 个 残 差 组 中 又 包含 了 N=4 个 残 差 块 。 第 
一 和 第 二 个 残 差 组 Conv1、Conv2 中 的 宽 残 差 块 对 应 图 5(b)， 
第 三 和 第 四 个 残 差 组 Conv3、Conv4 对 应 图 5(c)， 也 就 是 在 第 
民 进 行 空间 的 池 化 。 这 样 以 来 ， 每 一 层 的 特征 图 个 数 分 别 是 
8*4、16*4、32*4 和 64*4， 从 而 在 有 效 降 低 了 残 差 模块 层 数 的 
同时 拓宽 了 卷 积 核 的 个 数 , 而 模型 的 参数 量 并 没有 因此 而 增加 。 


2 ”模型 优化 


模型 的 优化 可 以 理解 为 通过 训练 样本 和 验证 样本 对 模型 的 
性 能 进行 初步 测评 ， 并 选择 合适 的 超 参数 训练 出 一 个 最 优 的 决 


里 论 上 来 说 ， 模 型 架构 的 容量 和 特征 判别 能 力 能 够 随 着 网 
络 层 数 的 不 断 加 深 而 不 断 提 高 。 然 而 大 量 实践 尝试 结果 表明 ， 
简单 增加 网 络 的 深度 会 出 现 梯度 弥散 问题 ， 即 过 深 的 网 络 结构 


策 模 型 用 于 最 终 的 测试 样本 。 
2.1 损失 函数 和 正则 化 
网 络 架构 的 优化 通过 计算 损失 函数 来 实现 ， 本 文 的 输出 层 


易 导致 训练 无 法 收敛 ， 因 此 识别 率 反 而 降低 。 针 对 该 问题 ， 何 
凯 明 等 人 19 提出 了 使 用 捷径 连接 (shortcut connection, SC) 搭 
建 深 度 残 差 网 络 结构 。 


使 用 的 是 softmax， 分 类 层 的 输出 按 以 下 公式 计算 : 


exp(x,) 
È expa) 


P(C]x, 0) = soft max(x,) = 


a 
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a 


录用 定稿 


经 元 的 输 昌 


Ho "代表 模型 参数 ，? 代表 


网 络 输出 层 对 应 某 个 手势 的 概率 。 考 虑 到 多 分 类 的 计算 问题 ， 


损失 函数 使 用 
签 之 间 的 差异 性 : 


L(0,D)= 


i D| 
== yi 
T 


P(C® pe ,0)) 


其 中 : “为 输入 样本 对 应 的 特 生 
为 待 优化 的 模型 参数 ， 


FE 表示 ，<c 表示 目 
D 表 示 同 一 批 输入 样 


(mini-batch size)， 网 络 的 优化 就 是 一 个 通过 


减少 误差 的 过 程 。 


为 了 解决 过 拟 合 问题 ， 本 文 在 经 验 风 


softmax 的 Loss 加 上 了 正则 化 项 : 


工 = 五 +4| 


其 中 : 第 一 部 分 4 对 应 原 损失 函数 ， 
来 减少 参数 的 优化 空间 ， 从 而 避免 过 拟 合 。 
正则 化 系数 ,用 来 控制 该 正则 化 对 损失 函数 所 起 到 的 约束 强度 ， 
交叉 验证 (cross validation) 来 选择 。 


正则 化 项 ， 


2 的 值 可 以 通过 
22 参数 优化 
参数 优化 是 指 


ol 


第 二 部 分 Ao xe 


计算 每 一 层 参数 的 梯度 ， 本 文 使 用 
算法 进行 神经 网 络 参数 的 更 新 : 


Vf(0)= Ge 


7 bat 


h 


Yiu = LY, —EVf (O, + 4v, ) 


Oa =O, tv 


其 中 : we) 表示 使 用 
的 损失 函数 工 相 对 于 前 一 个 迭代 周 
迭代 时 的 参数 更 新 依赖 于 发 生 在 第 


个 批量 


(batch) 的 数据 刘 
期 参数 9, 的 梯度 ， 
:-1 次 迭代 时 的 更 新 。 


学 习 速 率 ， 因 为 网 络 结构 中 使 用 ] 
速率 : 设 定 一 个 稍微 大 的 初始 值 ; 


了 负 对 数 似 然 函数 来 反映 网 络 输出 和 实际 手势 标 


标 类 别 标签 ，。 
本 的 数量 
修改 参数 "来 不 断 


仿 最 小 化 原则 上 给 


L2 范 数 的 


4 是 


失 函 数 计算 得 到 的 误差 来 反 向 传播 从 而 
了 一 种 改进 的 梯度 下 降 优化 


| 练 后 得 到 


批 规 范 化 ， 因 此 可 
为 了 防止 过 拟 


Fo FEI 


第 :次 
“表示 


以 为 学 习 


代 过 


程 中 如 果 损 失 函 数 误差 值 的 减 小 速 


率 没有 达到 预期 ， 则 进行 相 


应 的 权 值 衰减 ， 从 而 保证 参数 更 新 


幅度 不 断 减 小 ， 


向 着 复杂 决策 面 的 反方 向 偏 置 。* 
的 参数 调整 惯性 。 


是 动量 项 表示 当 


4 是 冲 量 系数 设 为 0.9， 在 友 代 的 初 其 


前 一 次 的 梯度 进行 加 速 ; 而 在 迭代 后 


使 学 习 过 程 


示 当 前 迭 


期 优化 到 达 收 敛 值 阶 


因为 两 次 更 新 方向 基本 相反 ， 使 得 梯度 逐 


SGD) 的 方法 类 似 ， 
加 上 了 冲 量 


很 大 的 提升 。 
23 ”多 模式 融合 


不 同 点 是 这 


在 训练 样本 有 限 的 情况 
识别 效果 的 有 效 手 段 [71。 


至 渐 缩 小 。 
参数 更 新 法 则 与 随机 梯度 下 降 (stochastic gradient descent, 
在 计算 梯度 的 时 候 ， 求 解 
(momentum) HJ E VAO +) ,而 SGD 中 只 是 简单 的 
计算 当前 权重 的 梯度 Y@) ， 所 以 收敛 速度 相 比 传统 SGD 有 了 


这 里 使 用 的 


t 
权重 


地 征 融合 被 证 明 是 进一步 提升 
如 结构 医 


列 深度 结构 对 输入 的 视频 提 和 
同 的 数据 格式 作为 输入 ， 因 此 识 另 


1 所 示 ， 本 文 使 用 了 一 种 双 
\ 同 的 特征 ， 每 一 个 子 网 络 以 不 
上 效果 也 不 尽 相 同 。 测 试 阶 段 
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的 融合 模型 按照 下 式 结合 从 两 个 子 网 络 估 计 出 的 所 属 类 别 概率 
来 计算 手语 分 类 的 最 终 输出 : 
P(C|x) x a* P(C|x,,W,) + (1-a) * P(C|x, ,We) 

此 处 ， 不 同 子 网 络 输出 的 所 属 成 员 概 率 | 函数 得 
H, “代表 一 个 加 权 系 数 ， 在 训练 阶段 由 交叉 验证 得 出 ， 用 来 
控制 每 一 个 子 网 络 对 最 终 的 成 员 概 率 的 贡献 。 一 般 来 说 ,，“ 的 
值 非常 接近 0.5。 本 文 根 据 不 同 的 数据 输入 格式 , 分 别 训练 两 个 
WRN-BCLSTM 模型 并 将 输出 结果 进行 概率 融合 ， 从 而 达到 鲁 
棒 性 强 ， 实 时 性 高 、 正 确 率 高 的 目的 。 


3 ”实验 结果 与 分 析 


本 文 的 实验 环境 如 下 ， 操 作 系 统 : 64 位 Ubuntu16.04 LTS; 
CPU: Inter Core i7-6700K 八 核 ; 显卡 Nivida GeForce GTX1070 
11264M 显存 ;32 GB DDR4 内 存 ; 实验 框架 选择 了 Tensorflow. 
数据 集 选 用 了 博物 馆 从 哑 人 手语 数据 集 (sign language video in 
museums, SLYM)、 ChaLearn Looking at People 2014 Gesture 
datasets( fii] #K Montalbano) L\ X Sheffield Kinect Gesture (SKIG) 
公开 数据 集 。 
3.1 SLVM 数据 集 的 实验 结果 

数据 是 进行 手势 识别 研究 的 重要 基础 和 先决 条 件 。 然 而 ， 
当前 大 多 数 的 公共 数据 集 缺乏 有 效 和 准确 的 标签 ， 或 以 单一 的 
数据 格式 进行 存储 为 了 满足 长 序列 动态 手语 识别 研究 的 需求 ， 
本 文 设计 了 多 模式 同 源 信号 的 数据 采集 平台 ， 并 建立 了 礁 哑 人 
在 博物 馆 参观 过 程 中 使 用 的 高 频 手 语词 汇 数据 样本 集 。 
首先 ， 在 数据 采集 模块 ， 为 了 有 效 抑制 光照 和 场景 噪声 的 
干扰 ， 本 文 握 弃 了 以 往 传统 的 使 用 RGB 图 像 作为 训练 样 例 的 
方法 ,而 是 基于 Kinect V2 for Windows 开发 了 多 模 态 数据 采集 
系统 Gestures Recorder(http://pan.baidu.com/s/1dEX29R7)。 

如 图 6 所 示 ， 该 系统 从 红外 图 像 、 轮 廓 图 像 、 骨 骼 数据 中 
同步 进行 特征 保存 ， 采 集 动态 手语 词汇 20 类 ， 共 计 6800 个 样 


Softmax 


7 


AM 


本 ， 其 中 训练 样本 (training data) 5100 个 ， 验 证 样本 (validation 
data) 850 个 ,测试 样本 (test data) 850 个 ,视频 分 辨 率 为 512*424， 
的 手 语 


形 成 了 一 套 完整 
(https://pan.baidu.com/s/1pL2qwuZ). 


数 据 库 


右手 : 


a H 
4 EF: 
轮廓 数据 流 —— 轮廓 数据 流 
RN = 


图 6 SLVM 多 模式 同 源 数据 集 
了 迁移 学 习 (transfer learning) 的 思想 来 缩短 模型 
迁移 学 习 是 指 将 原 任务 领域 学 习 到 的 参数 信息 共享 


本 文 使 
训练 时 间 。 
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和 推广 到 相似 的 学 习 任务 中 以 提高 模型 的 识别 率 。 以 动态 手势 表 1 将 本 文 的 方法 和 在 SLVM 数据 集 上 已 公开 的 最 佳 方法 
识别 为 例 ， 如 果 完 全 从 初始 状态 训练 深度 网 络 架 构 ， 可 能 会 因 进行 了 对 比 ， 实 验 结果 表明 ， 本 文 的 方法 相 比 P21 的 模型 具有 极 
为 数据 样本 不 足 而 无 法 达到 预期 的 效果 。 为 缩短 训练 时 间 ， 本 ”大 的 优势 ， 首先 ，3DCNN 通过 卷 积 操作 共享 网 络 层 参数 ， 在 
文采 用 了 两 种 迁移 学 习 策 略 : 第 一 步 是 模块 迁移 ， 在 文献 3 有 效 降低 了 网 络 参 数量 的 同时 ， 有 效 地 对 图 像 序 列 的 局 部 、 坡 
的 网 络 基 础 上 将 该 模型 在 大 规模 视频 数据 集 IsoGD (Chalearn 至 是 整体 的 空间 特征 信息 进行 有 效 提 取 。 Bi-ConvLSTM 不 但 
LAP 2017 RGB-D isolated gesture dataset) 上 已 经 训练 好 的 模型 有 传统 长 短 时 记忆 网 络 的 自 适应 记忆 和 抗 遗 忘 的 能 力 ， 在 进行 
前 9 fe 3DCNN 模块 迁移 到 现 有 模型 中 与 Bi-ConvLSTM 和 时 间 序 列 学 习 时 更 加 关注 图 像 序列 的 空间 信息 。 因 此 本 文 提 出 
WRN 模块 进行 辣 加 。 由 于 模型 的 3DCNN 层 提 取 的 是 图 像 序列 的 模型 相 比 之 前 SLVM 数据 集 的 最 佳 识别 正确 率 模型 有 质 的 提 
的 边缘 、 色 彩 以 及 短 时 空 特征 等 信息 ， 在 视频 分 类 领域 具有 一 升 。 同 时 可 以 发 现 ， 当 选择 使 用 Relu 激活 函数 时 ， 网 络 具 有 更 
定 的 共性 。 所 以 ， 在 参数 迁移 过 程 中 可 以 固定 前 9 层 的 参数 并 强 的 泛 化 能 力 ， 而 使 用 L2 正则 化 也 可 以 在 一 定 程度 上 避免 过 
进行 调整 和 优化 。 第 二 步 是 数据 迁移 ,根据 确定 的 拟 合 现象 。 

3DCNN+Bi-ConvLSTM+WRN 的 网 络 架构 ， 在 IOSGD 大 规模 3.2 Montalbano 手势 数据 集 的 实验 结果 

数据 集 上 进行 分 类 学 习 得 到 网 络 预 训练 模型 ， 而 后 将 模型 迁移 为 了 验证 本 文 算法 在 大 规模 数据 集 上 的 有 效 性 ， 本 文选 用 
至 SLVM 数据 集 上 蔡 换 掉 分 类 输出 层 ， 并 进行 参数 微调 。 学 习 了 Montalbano 数据 集 进行 实验 对 比分 析 。 该 手语 数据 集 是 用 深 
速率 的 设置 采用 了 均匀 分 布 策 略 , 以 0.05 作为 初始 的 学 习 速 率 ， 度 摄像 机 录制 的 多 人 动态 手语 数据 集 ， 旨 在 实现 基于 多 模 态 数 
经 过 1920 次 迭代 后 乘 以 0.1，batch size 设置 为 8。 实 验 在 GPU = 据 的 非特 定 用 户 动态 手势 识别 。 本 手势 识别 大 赛 在 2014 年 举 
加 速 基础 上 ， 可 以 在 2 小 时 完成 一 个 epoch 的 迭代 ， 经 过 12 办 ， 包 含 了 意大利 语 中 的 20 个 常用 手势 表达 。 数 据 集 包含 了 
个 epoch 的 迭代 ， 网 络 已 经 收敛 的 非常 好 。 13858 个 数据 样本 (其 中 training data 7754 个 ，validation data 
3362 个 ，test data2742 个 )， 每 一 个 多 模 态 样本 包括 了 传统 的 
RGB 图 像 ， 深 度 图 像 ， 骨 骼 数据 和 轮 廊 图像 。 该 公共 数据 的 详 
细 情 况 可 见 文献 "9。 
本 文 按照 Montalbano 手语 大 赛 的 规则 , 以 Jaccard Index 得 
分 对 算法 的 性 能 进行 综合 测评 。 其 中 大 赛 官方 的 Jaccard Index 


tl 


rai 
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T 
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ied 测评 方法 如 下 : 
oe e- Test_acc 
r J pa Avs 和 Bi 
0 10 20 30 40 60 70 80 90 100 ee fe a 
图 7 网 络 在 SLVM 数据 集 的 迭代 过 程 对 于 一 个 动态 手势 ， 有 其 所 属 类 别 的 真实 边界 4 和 息 法 预 


图 7 是 网 络 的 识别 正确 率 曲 线 , 横 坐 标 为 训练 的 迭代 次 数 ， ” 测 识别 输出 边界 zs ，7 表示 两 个 边界 所 占 区 域 的 交集 与 其 并 集 
在 SLVM 数据 集 上 的 打印 频率 设置 为 76 个 iter 输出 一 个 阶段 。 的 比值 。 


结果 ， 纵 坐标 表示 正确 率 。 最 佳 的 识别 率 达 到 了 98.3%。 ae 
表 1 算法 在 SLVM 数据 集 上 的 方法 比较 ag 
模型 数据 类 型 识别 率 其 中 : w 表示 了 数据 集中 的 手势 类 别 个 数 ， 此 处 v=20; s 表示 
轮廓 图 + 骨骼 80.8% 被 测试 样 例 中 的 帧 序列 长 度 。 em 表示 对 测试 数据 中 所 有 样本 
+Relus 85.5% 的 Jaccard Index 交 并 比例 取 均 值 作为 算法 在 该 数据 集 上 的 最 终 
+L2 正则 化 87.6% 得 分 。 
3DCNN"!! 红外 图 + 骨骼 81.5% 考虑 到 训练 一 个 复杂 的 深度 网 络 是 一 件 非常 耗 时 的 工作 ， 
+Relus 86.1% 特别 是 在 Montalbano 这 种 大 型 的 数据 集 上 , 因此 本 文 将 之 前 在 
+L2 正则 化 88.3% IsoGD 数据 集 上 训练 完成 的 网 络 架 构 作 为 初始 化 模型 ， 而 后 在 
数据 融合 89.2% Montalbano 数据 集 上 调 参 。 以 0.01 作为 初始 的 学 习 速 率 , 每 经 
轮廓 图 90.1% 2500 次 迭代 后 衰减 至 10，batch size 设置 为 8， 通 过 实验 可 以 
+Relus 95.2% 发 现 ， 在 数据 样本 有 限 的 情况 下 ， 迁 移 预 训练 模型 相 比 从 原始 
+L2 正则 化 97.1% 状态 开始 训练 不 仅 节 省 了 训练 时 间 ， 同 时 使 识别 正确 率 有 了 较 
本 文 方法 红外 图 90.3% 大 的 提升 。 
+Relus 95.3% 如 图 8 所 示 ， 在 Montalbano 数据 集 上 的 打印 频率 为 95 个 
+L2 正则 化 98.1% iter 显示 出 一 个 阶段 结果 。 由 于 迁移 了 预 训练 模型 ， 网 络 输出 


数据 融合 98.3% 函数 的 损失 值 (loss) 下 降幅 度 很 快 , 这 也 为 网 络 进一步 优化 节省 
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态 手势 ， 共计 


用 了 Sheffield Kinect Gesture Dataset(SKIG) 进 行 实 验 对 比分 析 。 
包含 了 2160 个 独立 的 手势 样 
1080 个 RGB 和 1080 个 Depth 格式 的 视频 保存 。 每 个 样 
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拳 、 单 个 手指 和 手掌 ) 来 录制。 这 些 样本 虽然 在 人 眼看 来 是 同 
一 个 类 别 ， 但 对 于 网 络 模型 而 言 ， 不 同 的 位 置 、 背 景 和 光照 条 
件 代 表 着 不 同 的 神经 元 响应 。 因 此 ， 本 数据 集 对 验证 算法 在 不 
同 模式 以 及 执行 环境 差别 较 大 时 的 辨识 能 力 很 有 价值 。 
表 2 算法 在 Montalbano 数据 集 上 的 方法 比较 
模型 数据 类 型 Jaccard 
Random Forest!'®! RGB 视频 0.787 
MRF" 骨骼 +RGB 0.826 
Boosted classifier"! Skeleton+Depth+RGB 0.833 
RGB+ 骨 骼 0.817 
3DCNN?!! Depth+ 8% 0.829 
数据 融合 0.836 
Skeleton 0.863 
Dynamic DNN "" RGB-D 0.787 
数据 融合 0.879 
DNNC2I Depth+RGB+Audio 0.881 
RNN+3DCNN®?#) Depth+RGB+skeleton 0.916 
RGB 0.921 
本 文 的 方法 Depth 0.926 
数据 融合 0.932 
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录用 定稿 REA, F: 融合 宽 残 差 和 长 短 时 记忆 网 络 的 动态 手势 识别 研究 
率 。 化 ， 最 终 利用 高 层 特征 进行 分 类 ， 极 大 地 提升 了 动态 手势 识别 
表 3 列举 了 各 种 公开 方法 在 SKIG 测试 集 上 取得 的 正确 率 ， 的 准确 性 。 然 而 , 深度 模型 仍然 存在 着 很 多 未 知 因素 可 以 探索 。 
本 文 方法 在 SKIG 数据 集 上 同样 取得 了 较 好 的 识别 结果 。 比如 ， 如 何 设计 适用 于 3D 卷 积 模块 的 残 差 快捷 连接 方式 等 。 
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DLEH2(DLE+HOG2)P9 98.4% 、 
3DCNN+RNN+CTC*! 98.3% Sam: 
3DCNN+ConvLSTM"?! 98.9% [1] Sharma R, Pavlovic V I, Huang T S. Toward multimodal human-computer 
本 文 方法 99.3% interface [J]. Proceedings of the IEEE, 1998, 86 (5): 853-869. 
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种 融合 RGB 和 深度 数据 的 自 适 应 方法 ， 并 采用 了 基于 图 的 受 recognition using bag-of-features and support vector machine techniques 
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手势 识别 方法 ， 将 两 种 数据 的 特征 描述 分 别 与 线性 SVM 分 类 [3] Parcheta Z, Martinez-Hinarejos C D. Sign language gesture recognition 
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